Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique
نویسندگان
چکیده
We carry out an experiment aimed at using subcategorization information into a syntactic parser for PP attachment disambiguation. The subcategorization lexicon consists of probabilities between a word (verb, noun, adjective) and a preposition. The lexicon is acquired automatically from a 200 million word corpus, that is partially tagged and parsed. In order to assess the lexicon, we use four different corpora in terms of genre and domain. We assess various methods for PP attachment disambiguation : an exogenous method relies on the sub-categorization lexicon whereas an endogenous method relies on the corpus specific ressource only and an hybrid method makes use of both. The hybrid method proves to be the best and the results vary from 79.4 % to 87.2 %.. MOTS-CLÉS : analyse syntaxique, rattachement prépositionnel, sous-catégorisation, évaluation.
منابع مشابه
Modélisation Sémantique de l'Utilisateur
Résumé. Notre approche « sémantique de l’utilisabilité », basée sur la catégorisation, correspond à un mode de représentation des connaissances, sous la forme d’un treillis de Galois qui permet de modéliser et simuler les procédures utilisateurs sur un dispositif technique. Cette approche, qui diffère de celles qu’on trouve avec SOAR ou ACT, associe les actions et les procédures aux catégories ...
متن کاملMulti-way Tensor Factorization for Unsupervised Lexical Acquisition
This paper introduces a novel method for joint unsupervised aquisition of verb subcategorization frame (SCF) and selectional preference (SP) information. Treating SCF and SP induction as a multi-way co-occurrence problem, we use multi-way tensor factorization to cluster frequent verbs from a large corpus according to their syntactic and semantic behaviour. The method extends previous tensor fac...
متن کاملL'alignement des documents médiévaux
RÉSUMÉ. Le but de l’alignement des textes est la mise en correspondance des sous-parties similaires de deux ou plusieurs traductions ou versions d’un même écrit. La plupart des méthodes utilisées dans la technique d’alignement reposent sur l’analyse statistique des fréquences de mots ou de caractères, ou sur la cooccurrence des chaînes que ceux-ci constituent. Afin d’en améliorer l’efficacité, ...
متن کاملThe Index Thomisticus Treebank Project: Annotation, Parsing and Valency Lexicon
We present an overview of the Index Thomisticus Treebank project (IT-TB). The ITTB consists of around 60,000 tokens from the Index Thomisticus by Roberto Busa SJ, an 11million-token Latin corpus of the texts by Thomas Aquinas. We briefly describe the annotation guidelines, shared with the Latin Dependency Treebank (LDT). The application of data-driven dependency parsers on IT-TB and LDT data is...
متن کاملÉvaluation de lexiques syntaxiques par leur intégartion dans l'analyseur syntaxiques FRMG
Résumé Dans cet article, nous évaluons divers lexiques avec l'analyseur syntaxique FRMG : le Lefff, LGLex, le lexique syntaxique construit à partir des tables du Lexique-Grammaire du français, le lexique DICOVALENCE, ainsi qu'une nouvelle version des entrées verbales du Lefff, obtenues par fusion avec DICOVALENCE et validation manuelle partielle. Pour cela, tous ces lexiques ont été convertis a...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- TAL
دوره 47 شماره
صفحات -
تاریخ انتشار 2006